16 september 2025Nederlands

Ontdek Python's 'email'-pakket. Leer complexe MIME-berichten op te bouwen en inkomende e-mails effectief en wereldwijd te parsen voor gegevensextractie.

De Python 'email'-pakket beheersen: De kunst van MIME-berichten opbouw en robuuste parsing

E-mail blijft een hoeksteen van wereldwijde communicatie, onmisbaar voor persoonlijke correspondentie, bedrijfsactiviteiten en geautomatiseerde systeemmeldingen. Achter elke rich-text e-mail, elke bijlage en elke zorgvuldig opgemaakte handtekening schuilt de complexiteit van Multipurpose Internet Mail Extensions (MIME). Voor ontwikkelaars, met name degenen die met Python werken, is het beheersen van het programmatisch opbouwen en parsen van deze MIME-berichten een cruciale vaardigheid.

Python's ingebouwde email-pakket biedt een robuust en uitgebreid raamwerk voor het afhandelen van e-mailberichten. Het is niet alleen voor het verzenden van eenvoudige tekst; het is ontworpen om de ingewikkelde details van MIME te abstraheren, zodat u geavanceerde e-mails kunt maken en specifieke gegevens uit inkomende e-mails kunt extraheren met opmerkelijke precisie. Deze gids neemt u mee op een diepgaande verkenning van de twee primaire facetten van dit pakket: het opbouwen van MIME-berichten voor verzending en het parsen ervan voor gegevensextractie, met een wereldwijd perspectief op best practices.

Inzicht in zowel opbouw als parsing is cruciaal. Wanneer u een bericht opbouwt, definieert u in wezen de structuur en inhoud ervan voor een ander systeem om te interpreteren. Wanneer u parseert, interpreteert u een structuur en inhoud die door een ander systeem zijn gedefinieerd. Een diepgaand begrip van het ene helpt enorm bij het beheersen van het andere, wat leidt tot veerkrachtigere en interoperabelere e-mailtoepassingen.

MIME begrijpen: de ruggengraat van moderne e-mail

Voordat u zich verdiept in de Python-specifieke details, is het essentieel om te begrijpen wat MIME is en waarom het zo cruciaal is. Oorspronkelijk waren e-mailberichten beperkt tot platte tekst (7-bits ASCII-tekens). MIME, geïntroduceerd in de vroege jaren 90, breidde de mogelijkheden van e-mail uit ter ondersteuning van:

Niet-ASCII-tekens: Het toestaan van tekst in talen zoals Arabisch, Chinees, Russisch, of elke andere taal die tekens gebruikt buiten de ASCII-set.
Bijlagen: Het verzenden van bestanden zoals documenten, afbeeldingen, audio en video.
Rich-text opmaak: HTML-e-mails met vetgedrukte tekst, cursieve tekst, kleuren en lay-outs.
Meerdere delen: Het combineren van platte tekst, HTML en bijlagen binnen één enkele e-mail.

MIME bereikt dit door specifieke headers aan een e-mailbericht toe te voegen en de hoofdtekst in verschillende "delen" te structureren. Belangrijke MIME-headers die u zult tegenkomen, zijn onder meer:

Content-Type: Specificeert het type gegevens in een deel (bijv. text/plain, text/html, image/jpeg, application/pdf, multipart/alternative). Het bevat vaak ook een charset-parameter (bijv. charset=utf-8).
Content-Transfer-Encoding: Geeft aan hoe de e-mailclient de inhoud moet decoderen (bijv. base64 voor binaire gegevens, quoted-printable voor voornamelijk tekst met enkele niet-ASCII-tekens).
Content-Disposition: Sugereert hoe de e-mailclient van de ontvanger het deel moet weergeven (bijv. inline voor weergave binnen de berichttekst, attachment voor een bestand dat moet worden opgeslagen).

Het Python `email`-pakket: een diepe duik

Python's email-pakket is een uitgebreide bibliotheek die is ontworpen voor het programmatisch maken, parsen en wijzigen van e-mailberichten. Het is gebouwd rond het concept van Message-objecten, die de structuur van een e-mail vertegenwoordigen.

Belangrijke modules binnen het pakket omvatten:

email.message: Bevat de kernklasse EmailMessage, de primaire interface voor het maken en manipuleren van e-mailberichten. Het is een zeer flexibele klasse die MIME-details automatisch afhandelt.
email.mime: Biedt oudere klassen (zoals MIMEText, MIMEMultipart) die meer expliciete controle over de MIME-structuur bieden. Hoewel EmailMessage over het algemeen de voorkeur heeft voor nieuwe code vanwege de eenvoud, kan het begrijpen van deze klassen nuttig zijn.
email.parser: Biedt klassen zoals BytesParser en Parser om ruwe e-mailgegevens (bytes of strings) om te zetten in EmailMessage-objecten.
email.policy: Definieert beleidsregels die bepalen hoe e-mailberichten worden opgebouwd en geparseerd, wat van invloed is op headercodering, regeleindes en foutafhandeling.

Voor de meeste moderne gebruikssituaties zult u voornamelijk interageren met de klasse email.message.EmailMessage voor zowel constructie als een geparseerd berichtobject. De methoden vereenvoudigen aanzienlijk wat voorheen een omslachtiger proces was met de oudere email.mime-klassen.

MIME-berichten opbouwen: e-mails maken met precisie

Het opbouwen van e-mails omvat het samenstellen van verschillende componenten (tekst, HTML, bijlagen) tot een geldige MIME-structuur. De klasse EmailMessage stroomlijnt dit proces aanzienlijk.

Basis tekst-e-mails

De eenvoudigste e-mail is platte tekst. U kunt er moeiteloos een maken en basisheaders instellen:


from email.message import EmailMessage

msg = EmailMessage()
msg['Subject'] = 'Groeten uit Python'
msg['From'] = 'sender@example.com'
msg['To'] = 'recipient@example.com'
msg.set_content('Hallo, dit is een platte tekst e-mail verzonden vanuit Python.\n\nMet vriendelijke groet,\nJe Python Script')

print(msg.as_string())

Uitleg:

EmailMessage() creëert een leeg berichtobject.
Toegang via woordenboekachtige syntax (msg['Subject'] = ...) stelt algemene headers in.
set_content() voegt de primaire inhoud van de e-mail toe. Standaard leidt het Content-Type: text/plain; charset="utf-8" af.
as_string() serialiseert het bericht naar een stringformaat dat geschikt is voor verzending via SMTP of opslag in een bestand.

HTML-inhoud toevoegen

Om een HTML-e-mail te verzenden, specificeert u eenvoudigweg het inhoudstype bij het aanroepen van set_content(). Het is een goede gewoonte om een platte tekstalternatief te bieden voor ontvangers wiens e-mailclients geen HTML weergeven, of om redenen van toegankelijkheid.


from email.message import EmailMessage

msg = EmailMessage()
msg['Subject'] = 'Uw HTML-nieuwsbrief'
msg['From'] = 'newsletter@example.com'
msg['To'] = 'subscriber@example.com'

html_content = """
<html>
    <head></head>
    <body>
        <h1>Welkom bij Onze Wereldwijde Update!</h1>
        <p>Beste abonnee,</p>
        <p>Dit is uw <strong>laatste update</strong> van over de hele wereld.</p>
        <p>Bezoek onze <a href="http://www.example.com">website</a> voor meer informatie.</p>
        <p>Met vriendelijke groet,<br>Het Team</p>
    </body>
</html>
"""

# Voeg de HTML-versie toe
msg.add_alternative(html_content, subtype='html')

# Voeg een platte tekst-terugval toe
plain_text_content = (
    "Welkom bij Onze Wereldwijde Update!\n\n"
    "Beste abonnee,\n\n"
    "Dit is uw laatste update van over de hele wereld.\n"
    "Bezoek onze website voor meer: http://www.example.com\n\n"
    "Met vriendelijke groet,\nHet Team"
)
msg.add_alternative(plain_text_content, subtype='plain')

print(msg.as_string())

Uitleg:

add_alternative() wordt gebruikt om verschillende representaties van dezelfde inhoud toe te voegen. De e-mailclient zal de "beste" weergeven die het kan verwerken (meestal HTML).
Dit creëert automatisch een multipart/alternative MIME-structuur.

Bijlagen verwerken

Het bijvoegen van bestanden is eenvoudig met behulp van add_attachment(). U kunt elk type bestand bijvoegen, en het pakket behandelt de juiste MIME-typen en coderingen (meestal base64).


from email.message import EmailMessage
from pathlib import Path

# Maak dummy bestanden aan voor demonstratie
Path('report.pdf').write_bytes(b'%PDF-1.4\n1 0 obj<</Type/Catalog/Pages 2 0 R>>endobj\n2 0 obj<</Count 0>>endobj\nxref\n0 3\n0000000000 65535 f\n0000000009 00000 n\n0000000052 00000 n\ntrailer<</Size 3/Root 1 0 R>>startxref\n104\n%%EOF') # Een zeer basis, ongeldige PDF-placeholder
Path('logo.png').write_bytes(b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\x01\x00\x00\x00\x01\x08\x06\x00\x00\x00\x1f\x15\xc4\x89\x00\x00\x00\x0cIDAT\x08\x99c`\x00\x00\x00\x02\x00\x01\xe2!\x00\xa0\x00\x00\x00\x00IEND\xaeB`\x82') # Een 1x1 transparante PNG-placeholder

msg = EmailMessage()
msg['Subject'] = 'Belangrijk document en afbeelding'
msg['From'] = 'sender@example.com'
msg['To'] = 'recipient@example.com'
msg.set_content('Gelieve het bijgevoegde rapport en bedrijfslogo te vinden.')

# Voeg een PDF-bestand toe
with open('report.pdf', 'rb') as f:
    file_data = f.read()
    msg.add_attachment(
        file_data,
        maintype='application',
        subtype='pdf',
        filename='Annual_Report_2024.pdf'
    )

# Voeg een afbeeldingsbestand toe
with open('logo.png', 'rb') as f:
    image_data = f.read()
    msg.add_attachment(
        image_data,
        maintype='image',
        subtype='png',
        filename='CompanyLogo.png'
    )

print(msg.as_string())

# Ruim dummy bestanden op
Path('report.png').unlink()
Path('logo.png').unlink()

Uitleg:

add_attachment() neemt de ruwe bytes van de bestandsinhoud.
maintype en subtype specificeren het MIME-type (bijv. application/pdf, image/png). Deze zijn cruciaal voor de e-mailclient van de ontvanger om de bijlage correct te identificeren en af te handelen.
filename geeft de naam op waaronder de bijlage door de ontvanger wordt opgeslagen.
Dit zet automatisch een multipart/mixed-structuur op.

Multipart-berichten maken

Wanneer u een bericht hebt met zowel een HTML-body, een platte tekst-terugval en inline afbeeldingen of gerelateerde bestanden, hebt u een complexere multipart-structuur nodig. De klasse EmailMessage handelt dit intelligent af met add_related() en add_alternative().

Een veelvoorkomend scenario is een HTML-e-mail met een afbeelding die direct in de HTML is ingebed (een "inline"-afbeelding). Dit maakt gebruik van multipart/related.


from email.message import EmailMessage
from pathlib import Path

# Maak een dummy afbeeldingsbestand aan ter demonstratie (een 1x1 transparante PNG)
Path('banner.png').write_bytes(b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\x01\x00\x00\x00\x01\x08\x06\x00\x00\x00\x1f\x15\xc4\x89\x00\x00\x00\x0cIDAT\x08\x99c`\x00\x00\x00\x02\x00\x01\xe2!\x00\xa0\x00\x00\x00\x00IEND\xaeB`\x82')

msg = EmailMessage()
msg['Subject'] = 'Voorbeeld van inline afbeelding'
msg['From'] = 'sender@example.com'
msg['To'] = 'recipient@example.com'

# Platte tekstversie (terugval)
plain_text = 'Bekijk onze geweldige banner!\n\n[Afbeelding: Banner.png]\n\nBezoek onze site.'
msg.set_content(plain_text, subtype='plain') # Stel de initiële platte tekstinhoud in

# HTML-versie (met CID voor inline afbeelding)
html_content = """
<html>
    <head></head>
    <body>
        <h1>Onze nieuwste aanbieding!</h1>
        <p>Beste klant,</p>
        <p>Mis onze speciale wereldwijde promotie niet:</p>
        <img src="cid:my-banner-image" alt="Promotion Banner">
        <p>Klik <a href="http://www.example.com">hier</a> voor meer informatie.</p>
    </body>
</html>
"""

msg.add_alternative(html_content, subtype='html') # Voeg HTML-alternatief toe

# Voeg de inline afbeelding toe (gerelateerde inhoud)
with open('banner.png', 'rb') as img_file:
    image_data = img_file.read()
    msg.add_related(
        image_data,
        maintype='image',
        subtype='png',
        cid='my-banner-image' # Deze CID komt overeen met de 'src' in HTML
    )

print(msg.as_string())

# Ruim dummy bestand op
Path('banner.png').unlink()

Uitleg:

set_content() stelt de initiële inhoud vast (hier, platte tekst).
add_alternative() voegt de HTML-versie toe, waardoor een multipart/alternative-structuur ontstaat die de platte tekst- en HTML-delen bevat.
add_related() wordt gebruikt voor inhoud die "gerelateerd" is aan een van de berichtdelen, typisch inline afbeeldingen in HTML. Het accepteert een cid (Content-ID) parameter, die vervolgens wordt gerefereerd in de HTML-tag <img src="cid:my-banner-image">.
De uiteindelijke structuur zal multipart/mixed zijn (als er externe bijlagen waren) met daarin een multipart/alternative-deel, dat op zijn beurt een multipart/related-deel bevat. Het multipart/related-deel bevat de HTML en de inline afbeelding. De EmailMessage-klasse handelt deze nestcomplexiteit voor u af.

Codering en karaktersets voor wereldwijd bereik

Voor internationale communicatie is de juiste karaktercodering van het grootste belang. Het email-pakket is standaard zeer stellig over het gebruik van UTF-8, wat de universele standaard is voor het omgaan met diverse karaktersets van over de hele wereld.


from email.message import EmailMessage

msg = EmailMessage()
msg['Subject'] = 'Wereldwijde tekens: こんにちは, Привет, नमस्ते'
msg['From'] = 'global_sender@example.com'
msg['To'] = 'global_recipient@example.com'

# Japanse, Russische en Hindi tekens
content = "Dit bericht bevat diverse wereldwijde tekens:\n"
content += "こんにちは (Japans)\n"
content += "Привет (Russisch)\n"
content += "नमस्ते (Hindi)\n\n"
content += "Het 'email' pakket verwerkt UTF-8 gracieus."

msg.set_content(content)

print(msg.as_string())

Uitleg:

Wanneer set_content() een Python-string ontvangt, codeert het deze automatisch naar UTF-8 en stelt het de Content-Type: text/plain; charset="utf-8"-header in.
Als de inhoud dit vereist (bijv. veel niet-ASCII-tekens bevat), kan het ook Content-Transfer-Encoding: quoted-printable of base64 toepassen om veilige verzending via oudere e-mailsystemen te garanderen. Het pakket handelt dit automatisch af volgens het gekozen beleid.

Aangepaste headers en beleidsregels

U kunt elke aangepaste header aan een e-mail toevoegen. Beleidsregels (uit email.policy) bepalen hoe berichten worden afgehandeld, beïnvloeden aspecten zoals headercodering, regeleindes en foutafhandeling. Het standaardbeleid is over het algemeen goed, maar u kunt SMTP kiezen voor strikte SMTP-compatibiliteit of aangepaste beleidsregels definiëren.


from email.message import EmailMessage
from email import policy

msg = EmailMessage(policy=policy.SMTP)
msg['Subject'] = 'E-mail met aangepaste header'
msg['From'] = 'info@example.org'
msg['To'] = 'user@example.org'
msg['X-Custom-Header'] = 'Dit is een aangepaste waarde voor tracking'
msg['Reply-To'] = 'support@example.org'
msg.set_content('Deze e-mail demonstreert aangepaste headers en beleidsregels.')

print(msg.as_string())

Uitleg:

Het gebruik van policy=policy.SMTP zorgt voor strikte naleving van SMTP-standaarden, wat cruciaal kan zijn voor de bezorgbaarheid.
Aangepaste headers worden net als standaardheaders toegevoegd. Ze beginnen vaak met X- om niet-standaardheaders aan te duiden.

MIME-berichten parsen: informatie extraheren uit inkomende e-mails

Parsen omvat het nemen van ruwe e-mailgegevens (meestal ontvangen via IMAP of uit een bestand) en deze omzetten in een EmailMessage-object dat u vervolgens eenvoudig kunt inspecteren en manipuleren.

Laden en initiële parsing

U ontvangt e-mails doorgaans als ruwe bytes. De email.parser.BytesParser (of de gemakkelijke functies email.message_from_bytes()) wordt hiervoor gebruikt.


from email.parser import BytesParser
from email.policy import default

raw_email_bytes = b"""
From: sender@example.com
To: recipient@example.com
Subject: Test E-mail met Basis Headers
Date: Mon, 1 Jan 2024 10:00:00 +0000
Content-Type: text/plain; charset=\"utf-8\"

Dit is de hoofdtekst van de e-mail.
Het is een eenvoudige test.
"""

# Met behulp van BytesParser
parser = BytesParser(policy=default)
msg = parser.parsebytes(raw_email_bytes)

# Of met behulp van de gemakkelijke functie
# from email import message_from_bytes
# msg = message_from_bytes(raw_email_bytes, policy=default)

print(f"Onderwerp: {msg['subject']}")
print(f"Van: {msg['from']}")
print(f"Content-Type: {msg['Content-Type']}")

Uitleg:

BytesParser neemt ruwe bytegegevens (zoals e-mails worden verzonden) en retourneert een EmailMessage-object.
policy=default specificeert de parseringsregels.

Headers openen

Headers zijn gemakkelijk toegankelijk via woordenboekachtige sleutels. Het pakket handelt automatisch de decodering van gecodeerde headers af (bijv. onderwerpen met internationale tekens).


# ... (met behulp van het 'msg'-object uit het vorige parseringsvoorbeeld)

print(f"Datum: {msg['date']}")
print(f"Bericht-ID: {msg['Message-ID'] if 'Message-ID' in msg else 'N.v.t.'}")

# Meerdere headers afhandelen (bijv. 'Received'-headers)
# from email.message import EmailMessage # Indien nog niet geïmporteerd
# from email import message_from_string # Voor een snel stringvoorbeeld

multi_header_email = message_from_string(
    """
From: a@example.com
To: b@example.com
Subject: Multi-header Test
Received: from client.example.com (client.example.com [192.168.1.100])
        by server.example.com (Postfix) with ESMTP id 123456789
        for <b@example.com>; Mon, 1 Jan 2024 10:00:00 +0000 (GMT)
Received: from mx.another.com (mx.another.com [192.168.1.101])
        by server.example.com (Postfix) with ESMTP id 987654321
        for <b@example.com>; Mon, 1 Jan 2024 09:59:00 +0000 (GMT)

Body content here.
"""
)

received_headers = multi_header_email.get_all('received')
if received_headers:
    print("\nOntvangen Headers:")
    for header in received_headers:
        print(f"- {header}")

Uitleg:

Het openen van een header retourneert de waarde ervan als een string.
get_all('header-name') is nuttig voor headers die meerdere keren kunnen voorkomen (zoals Received).
Het pakket handelt headerdecodering af, dus waarden zoals Subject: =?utf-8?Q?Global_Characters:_=E3=81=93=E3=82=93=E3=81=AB=E3=81=A1=E3=81=AF?= worden automatisch omgezet naar leesbare strings.

Hoofdtekst extraheren

Het extraheren van de feitelijke berichttekst vereist controleren of het bericht multipart is. Voor multipart-berichten itereert u door de delen ervan.


from email.message import EmailMessage
from email import message_from_string

multipart_email_raw = """
From: multi@example.com
To: user@example.com
Subject: Test Multipart E-mail
Content-Type: multipart/alternative; boundary=\"_----------=_12345\"

--_----------=_12345
Content-Type: text/plain; charset=\"utf-8\"

Hallo vanuit het platte tekstdeel!

--_----------=_12345
Content-Type: text/html; charset=\"utf-8\"

<html>
<body>
<h1>Hallo vanuit het HTML-deel!</h1>
<p>Dit is een <strong>rich text</strong> e-mail.</p>
</body>
</html>

--_----------=_12345--
"""

msg = message_from_string(multipart_email_raw)

if msg.is_multipart():
    print("\n--- Multipart E-mail Hoofdtekst ---")
    for part in msg.iter_parts():
        content_type = part.get_content_type()
        charset = part.get_content_charset() or 'utf-8' # Standaard naar utf-8 indien niet gespecificeerd
        payload = part.get_payload(decode=True) # Decodeer payload bytes

        try:
            decoded_content = payload.decode(charset)
            print(f"Content-Type: {content_type}, Charset: {charset}\nInhoud:\n{decoded_content}\n")
        except UnicodeDecodeError:
            print(f"Content-Type: {content_type}, Charset: {charset}\nInhoud: (Binaire of ondecodeerbare gegevens)\n")
            # Behandel binaire gegevens, of probeer een terugvalcodering
else:
    print("\n--- Enkel deel E-mail Hoofdtekst ---")
    charset = msg.get_content_charset() or 'utf-8'
    payload = msg.get_payload(decode=True)
    try:
        decoded_content = payload.decode(charset)
        print(f"Content-Type: {msg.get_content_type()}, Charset: {charset}\nInhoud:\n{decoded_content}\n")
    except UnicodeDecodeError:
        print(f"Inhoud: (Binaire of ondecodeerbare gegevens)\n")

Uitleg:

is_multipart() bepaalt of de e-mail meerdere delen heeft.
iter_parts() itereert door alle sub-delen van een multipart-bericht.
get_content_type() retourneert het volledige MIME-type (bijv. text/plain).
get_content_charset() extraheert de karakterset uit de Content-Type-header.
get_payload(decode=True) is cruciaal: het retourneert de gedecodeerde inhoud als bytes. U moet deze bytes vervolgens .decode()'en met de juiste karakterset om een Python-string te krijgen.

Bijlagen afhandelen tijdens parsing

Bijlagen zijn ook delen van een multipart-bericht. U kunt ze identificeren met hun Content-Disposition-header en hun gedecodeerde payload opslaan.


from email.message import EmailMessage
from email import message_from_string
import os

# Voorbeeld e-mail met een eenvoudige bijlage
email_with_attachment = """
From: attach@example.com
To: user@example.com
Subject: Document Bijgevoegd
MIME-Version: 1.0
Content-Type: multipart/mixed; boundary=\"_----------=_XYZ\"

--_----------=_XYZ
Content-Type: text/plain; charset=\"utf-8\"

Hier is uw gevraagde document.

--_----------=_XYZ
Content-Type: application/pdf
Content-Transfer-Encoding: base64
Content-Disposition: attachment; filename=\"document.pdf\"

JVBERi0xLjQKMSAwIG9iagpbL1BERi9UZXh0L0ltYWdlQy9JbWFnZUkvSW1hZ0VCXQplbmRvYmoK

--_----------=_XYZ--
"""

msg = message_from_string(email_with_attachment)

output_dir = 'parsed_attachments'
os.makedirs(output_dir, exist_ok=True)

print("\n--- Bijlagen verwerken ---")
for part in msg.iter_attachments():
    filename = part.get_filename()
    if filename:
        filepath = os.path.join(output_dir, filename)
        try:
            with open(filepath, 'wb') as f:
                f.write(part.get_payload(decode=True))
            print(f"Bijlage opgeslagen: {filepath} (Type: {part.get_content_type()})")
        except Exception as e:
            print(f"Fout bij opslaan {filename}: {e}")
    else:
        print(f"Een bijlage gevonden zonder bestandsnaam (Content-Type: {part.get_content_type()})")

# Ruim de uitvoermap op
# import shutil
# shutil.rmtree(output_dir)

Uitleg:

iter_attachments() levert specifiek delen op die waarschijnlijk bijlagen zijn (d.w.z. een Content-Disposition: attachment-header hebben of anderszins niet zijn geclassificeerd).
get_filename() extraheert de bestandsnaam uit de Content-Disposition-header.
part.get_payload(decode=True) haalt de ruwe binaire inhoud van de bijlage op, reeds gedecodeerd van base64 of quoted-printable.

Decodering van coderingen en karaktersets

Het email-pakket doet uitstekend werk in het automatisch decoderen van veelvoorkomende transfercoderingen (zoals base64, quoted-printable) wanneer u get_payload(decode=True) aanroept. Voor de tekstinhoud zelf probeert het de charset te gebruiken die is gespecificeerd in de Content-Type-header. Als er geen charset is opgegeven of het is ongeldig, moet u het mogelijk gracieus afhandelen.


from email.message import EmailMessage
from email import message_from_string

# Voorbeeld met een potentieel problematische karakterset
email_latin1 = """
From: legacy@example.com
To: new_system@example.com
Subject: Speciale tekens: àéíóú
Content-Type: text/plain; charset=\"iso-8859-1\"

Dit bericht bevat Latin-1 tekens: àéíóú
"""

msg = message_from_string(email_latin1)

if msg.is_multipart():
    for part in msg.iter_parts():
        payload = part.get_payload(decode=True)
        charset = part.get_content_charset() or 'utf-8'
        try:
            print(f"Gedecodeerd (Charset: {charset}): {payload.decode(charset)}")
        except UnicodeDecodeError:
            print(f"Mislukt om te decoderen met {charset}. Terugval wordt geprobeerd...")
            # Terugval naar een gangbare karakterset of 'latin-1' indien verwacht
            print(f"Gedecodeerd (Terugval Latin-1): {payload.decode('latin-1', errors='replace')}")
else:
    payload = msg.get_payload(decode=True)
    charset = msg.get_content_charset() or 'utf-8'
    try:
        print(f"Gedecodeerd (Charset: {charset}): {payload.decode(charset)}")
    except UnicodeDecodeError:
        print(f"Mislukt om te decoderen met {charset}. Terugval wordt geprobeerd...")
        print(f"Gedecodeerd (Terugval Latin-1): {payload.decode('latin-1', errors='replace')}")

Uitleg:

Probeer altijd de karakterset te gebruiken die is gespecificeerd in de Content-Type-header.
Gebruik een try-except UnicodeDecodeError-blok voor robuustheid, vooral wanneer u te maken hebt met e-mails van diverse en potentieel niet-standaard bronnen.
errors='replace' of errors='ignore' kan worden gebruikt met .decode() om tekens af te handelen die niet kunnen worden toegewezen aan de doelcodering, waardoor crashes worden voorkomen.

Geavanceerde parseringsscenario's

E-mails in de echte wereld kunnen zeer complex zijn, met geneste multipart-structuren. De recursieve aard van het email-pakket maakt het navigeren hiervan eenvoudig. U kunt is_multipart() combineren met iter_parts() om diep geneste berichten te doorlopen.


from email.message import EmailMessage
from email import message_from_string

def parse_email_part(part, indent=0):
    prefix = "  " * indent
    content_type = part.get_content_type()
    charset = part.get_content_charset() or 'N.v.t.'
    print(f"{prefix}Deel Type: {content_type}, Charset: {charset}")

    if part.is_multipart():
        for subpart in part.iter_parts():
            parse_email_part(subpart, indent + 1)
    elif part.get_filename(): # Het is een bijlage
        print(f"{prefix}  Bijlage: {part.get_filename()} (Grootte: {len(part.get_payload(decode=True))} bytes)")
    else: # Het is een regulier tekst-/html-bodydeel
        payload = part.get_payload(decode=True)
        try:
            decoded_content = payload.decode(charset)
            # print(f"{prefix}  Inhoud (eerste 100 tekens): {decoded_content[:100]}...") # Voor de beknoptheid
        except UnicodeDecodeError:
            print(f"{prefix}  Inhoud: (Binaire of ondecodeerbare tekst)")

complex_email_raw = """
From: complex@example.com
To: receiver@example.com
Subject: Complexe E-mail met HTML, Platte Tekst en Bijlage
MIME-Version: 1.0
Content-Type: multipart/mixed; boundary=\"outer_boundary\"

--outer_boundary
Content-Type: multipart/alternative; boundary=\"inner_boundary\"

--inner_boundary
Content-Type: text/plain; charset=\"utf-8\"

Platte tekst inhoud.

--inner_boundary
Content-Type: text/html; charset=\"utf-8\"

<html><body><h2>HTML Inhoud</h2></body></html>

--inner_boundary--

--outer_boundary
Content-Type: application/octet-stream
Content-Transfer-Encoding: base64
Content-Disposition: attachment; filename=\"data.bin\"

SGVsbG8gV29ybGQh

--outer_boundary--
"""

msg = message_from_string(complex_email_raw)
print("\n--- Complexe E-mail Structuur Doorlopen ---")
parse_email_part(msg)

Uitleg:

De recursieve functie parse_email_part demonstreert hoe de gehele berichtboom doorlopen kan worden, waarbij multipart-delen, bijlagen en body-inhoud op elk niveau worden geïdentificeerd.
Dit patroon is zeer flexibel voor het extraheren van specifieke typen inhoud uit diep geneste e-mails.

Constructie vs. Parsing: een vergelijkend perspectief

Hoewel afzonderlijke bewerkingen, zijn constructie en parsing twee zijden van dezelfde medaille: MIME-berichtafhandeling. Begrip van het ene helpt onvermijdelijk het andere.

Constructie (Verzenden):

Focus: Correct samenstellen van headers, inhoud en bijlagen tot een standaard-compatibele MIME-structuur.
Primair hulpmiddel: email.message.EmailMessage met methoden zoals set_content(), add_attachment(), add_alternative(), add_related().
Belangrijkste uitdagingen: Zorgen voor correcte MIME-typen, karaktersets (vooral UTF-8 voor wereldwijde ondersteuning), Content-Transfer-Encoding en de juiste headeropmaak. Misstappen kunnen leiden tot e-mails die niet correct worden weergegeven, bijlagen die beschadigd raken of berichten die als spam worden gemarkeerd.

Parsing (Ontvangen):

Focus: Het demonteren van een ruwe e-mailbyte-stroom in de samenstellende delen, het extraheren van specifieke headers, body-inhoud en bijlagen.
Primair hulpmiddel: email.parser.BytesParser of email.message_from_bytes(), waarna het resulterende EmailMessage-object wordt genavigeerd met methoden zoals is_multipart(), iter_parts(), get_payload(), get_filename() en header-toegang.
Belangrijkste uitdagingen: Omgaan met onjuist opgemaakte e-mails, correct identificeren van karaktercoderingen (vooral wanneer ambigu), omgaan met ontbrekende headers en robuust extraheren van gegevens uit verschillende MIME-structuren.

Een bericht dat u opbouwt met EmailMessage moet perfect parseerbaar zijn door BytesParser. Op dezelfde manier geeft inzicht in de MIME-structuur die tijdens het parsen wordt geproduceerd, u inzicht in hoe u zelf complexe berichten kunt opbouwen.

Best practices voor wereldwijde e-mailafhandeling met Python

Voor toepassingen die interageren met een wereldwijd publiek of diverse e-mailbronnen afhandelen, overweeg deze best practices:

Standaardiseer op UTF-8: Gebruik altijd UTF-8 voor alle tekstinhoud, zowel bij het opbouwen als wanneer u het verwacht tijdens het parsen. Dit is de wereldwijde standaard voor karaktercodering en voorkomt mojibake (vervormde tekst).
Valideer e-mailadressen: Valideer e-mailadressen van ontvangers vóór verzending om de bezorgbaarheid te garanderen. Wees bij het parsen voorbereid op potentieel ongeldige of onjuist opgemaakte adressen in From-, To- of Cc-headers.
Grondig testen: Test uw e-mailconstructie met verschillende e-mailclients (Gmail, Outlook, Apple Mail, Thunderbird) en platforms om een consistente weergave van HTML en bijlagen te garanderen. Test voor het parsen met een breed scala aan voorbeeld-e-mails, inclusief die met ongebruikelijke coderingen, ontbrekende headers of complexe geneste structuren.
Geparseerde invoer saneren: Behandel inhoud die is geëxtraheerd uit inkomende e-mails altijd als onbetrouwbaar. Saner HTML-inhoud om XSS-aanvallen te voorkomen als u deze in een webapplicatie weergeeft. Valideer bijlagebestandsnamen en -typen om directory traversal of andere beveiligingslekken bij het opslaan van bestanden te voorkomen.
Robuuste foutafhandeling: Implementeer uitgebreide try-except-blokken bij het decoderen van payloads of het openen van potentieel ontbrekende headers. Behandel UnicodeDecodeError of KeyError gracieus.
Grote bijlagen afhandelen: Houd rekening met de grootte van bijlagen, zowel bij het opbouwen (om te voorkomen dat de limieten van de mailserver worden overschreden) als bij het parsen (om overmatig geheugengebruik of schijfruimteverbruik te voorkomen). Overweeg het streamen van grote bijlagen als dit door uw systeem wordt ondersteund.
Gebruik email.policy: Kies voor kritieke toepassingen expliciet een email.policy (bijv. policy.SMTP) om strikte naleving van e-mailstandaarden te garanderen, wat van invloed kan zijn op de bezorgbaarheid en interoperabiliteit.
Behoud van metadata: Beslis bij het parsen welke metadata (headers, originele grenstekens) belangrijk is om te bewaren, vooral als u een e-mailarchiverings- of doorstuursysteem bouwt.

Conclusie

Python's email-pakket is een ongelooflijk krachtige en flexibele bibliotheek voor iedereen die programmatisch met e-mail moet communiceren. Door zowel de constructie van MIME-berichten als het robuuste parsen van inkomende e-mails onder de knie te krijgen, ontgrendelt u de mogelijkheid om geavanceerde e-mailautomatisering systemen te creëren, e-mailclients te bouwen, e-mailgegevens te analyseren en e-mailfunctionaliteiten te integreren in vrijwel elke toepassing.

Het pakket handelt doordacht de onderliggende complexiteit van MIME af, waardoor ontwikkelaars zich kunnen richten op de inhoud en logica van hun e-mailinteracties. Of u nu gepersonaliseerde nieuwsbrieven naar een wereldwijd publiek stuurt of kritieke gegevens extraheert uit geautomatiseerde systeemrapporten, een diepgaand begrip van het email-pakket zal van onschatbare waarde blijken bij het bouwen van betrouwbare, interoperabele en wereldwijd bewuste e-mailoplossingen.

De Python 'email'-pakket beheersen: De kunst van MIME-berichten opbouw en robuuste parsing

MIME begrijpen: de ruggengraat van moderne e-mail

Het Python email-pakket: een diepe duik

MIME-berichten opbouwen: e-mails maken met precisie

Basis tekst-e-mails

HTML-inhoud toevoegen

Bijlagen verwerken

Multipart-berichten maken

Codering en karaktersets voor wereldwijd bereik

Aangepaste headers en beleidsregels

MIME-berichten parsen: informatie extraheren uit inkomende e-mails

Laden en initiële parsing

Headers openen

Hoofdtekst extraheren

Bijlagen afhandelen tijdens parsing

Decodering van coderingen en karaktersets

Geavanceerde parseringsscenario's

Constructie vs. Parsing: een vergelijkend perspectief

Best practices voor wereldwijde e-mailafhandeling met Python

Conclusie

Het Python `email`-pakket: een diepe duik